scrapy之实现断点续爬以及定时启动和关闭功能.py

资源分类：Python/Python语言基础
发布人：房东的猫
文件大小：4977
文件格式：.py
浏览次数：46
下载次数： 0
发布时间：9月5日

标签： scrapyScrapy框架源码例子

开通会员每日领积分！

如何获取积分

0赞

8.5玩家评分(1人评分)

下载后可评

介绍评论  失效链接反馈

实现scrapy的断点续爬

1.设置断点续爬：

在定时启动和关闭前，需要先设置断点续爬，将关闭前的数据保存，防止再次启动时
新建一个run.py文件from scrapy import cmdlinecmdline.execute("scrapy crawl douluo -s JOBDIR=crawls".split())

这样爬虫在正常结束时，会新建一个cralws文件夹，并将进度保存在里面

2.设置关闭时间

在启动时添加CLOSESPIDER_TIMEOUT=秒数
即可将爬虫设置成多少秒后自动停止运行from scrapy import cmdlinecmdline.execute("scrapy crawl douluo -s CLOSESPIDER_TIMEOUT=3 -s JOBDIR=crawls".split())

这样，run.py文件就被编辑好了，用于运行scrapy爬虫

3.新建一个runs.py,用于将run文件放入循环中

若直接在run.py中将cmdline.execute放入循环，程序在cmd结束后就结束了，并不会循环，因此新建一个py文件，用于将启动cmd放入循环，这样每次爬取结束后程序都不会结束
具体代码如下：import os import time while True: os.system('run.py') time.sleep(5)

这样，我们就将scrapy设置成了启动后3s自动停止，停止后5s自动启动，并且拥有断点续爬的功能
import os import time while True: os.system('run.py') time.sleep(5)

下载scrapy之实现断点续爬以及定时启动和关闭功能.py用户还喜欢

发表评论必须先登陆，您可以登陆或者注册新账号 !

scrapy之实现断点续爬以及定时启动和关闭功能.py

1.设置断点续爬：

2.设置关闭时间

3.新建一个runs.py,用于将run文件放入循环中

评论

作者专栏

编辑推荐